新学期,厉害的北大新助教来了!
新学期即将拉开序幕
新的课程也即将开启课堂上,有那么一群人他们与你年龄相仿是你课程学习的向导也是你们与老师沟通的桥梁
他们就是你的助教
在北大
有一位特殊的助教
它“永远有耐心”
能提供高质量互动
是一个“聪明又勤奋的家伙”
这位助教就是
“Brainiac Buddy(简称BB)”
一个基于GPT-4的AI交互工程的产物
2023年秋季学期
BB启用于北京大学博雅特聘教授
北大北京国际数学研究中心董彬老师的
《图像处理中的数学方法》课上
学生通过对“BB”进行提问
实现了对课程的预习
和个性化知识库的建立
未来,这位AI助教
也将适用和支持更多的课程
图片由周珍楠老师用Midjourney创作
创作灵感是利用人工智能实现个性化、互动式教育
AI助教“Brainiac Buddy(简称BB)” 由董彬老师带领学生和校外科技公司联合打造,基于GPT-4开发,目标是实现个性化、定制化和互动式的助教,以此提高教学质量。
BB上线后,获得了校内外师生以及社会人士的广泛关注,目前还在试用-反馈-完善的阶段;它对于不同学科、不同类型课程的适用性还有待时间的检验。这样一款AI助教为什么会出自一个数学家团队?董彬老师及其团队成员对于数学和AI之间的关系是如何展望的?在BB上线后不久,董彬老师和北京国际数学研究中心助理教授周珍楠老师、学生罗逸凡、沈城烽、唐艺铭一起贴出了一篇预印本论文Prompt Engineering Through the Lens of Optimal Control,文章从最优控制的视角出发,建立了一套描述交互工程的数学框架,为繁多的交互工程方法提供了一个统一而简洁的理论理解。论文目前已被Journal of Machine Learning杂志接受。
BB登录界面
BB背后的数学思想
2023年年初GPT-3.5刚出来的时候,董彬还没有意识到跟这样的大语言模型的交互会产生怎样的价值。“因为当时GPT-3.5的底层的逻辑能力还相对比较弱,我可能也跟很多人一样,跟它对话只是好奇,也会嘲笑一下它犯的低级错误,纯属娱乐。但是跟它交互时间久了之后,我逐渐意识到它的延伸价值有可能是巨大的,但是当时还没对交互工程有很清晰的认识。”
GPT-4的出现,让董彬看到了它逻辑推理能力的质变,“也许我们真的可以通过设计一系列的指令来引导大模型去完成那些我们之前完全不敢想的非常复杂的任务。”董彬开始着眼于AI for Mathematics,并且和数学中心的老师和同学们一起筹划如何将它的逻辑推理能力在高质量的数学类的数据集上进行训练调优,让其成为数学家的得力助手。这也成为催生这位特殊AI助教的契机。↓点击链接↓
了解AI for Mathematics的更多内容
当大模型的逻辑思维能力超过了一个阈值之后,它就能够很清晰地理解你的指令了,它可以严格遵循你的意图(只要你把你的意图用清晰的语言表述出来),甚至能够在指令比较宽泛时去做一些即兴发挥,随机应变地完成你布置给它的任务。
顾名思义,交互工程是在一系列指令(包括自然语言)的引导下,让大语言模型完成对应的任务。作为数学工作者,在论文Prompt Engineering Through the Lens of Optimal Control中,董彬老师选择从最优控制的角度出发、使用统一的数学框架去理解和刻画交互工程。“交互工程目前有很多的具体实现和变种,从我们的学科背景来讲,只有把具体事物用数学语言进行抽象化,我们才会满意,最优控制能够比较好地给它们一个整体的刻画。”
The general framework of multi-round PE
图片摘自董彬老师团队论文
虽然实现了最优控制的形式,但由于交互工程相关的很多数学定义的欠缺,在进一步的理解层面,董彬团队也遇到了很多困难。如何从数学上定义语言空间、最优交互模式是否存在、如何系统地设计高效的数值算法来找到最优的交互模式等等问题还都是一片空白之地。“我们用最优控制来描述交互工程,目的之一就是希望依靠控制论这样一个发展了70多年的领域,把其中许多非常好用的数学工具借鉴过来。”
北京国际数学研究中心办公院落
基座模型越来越强,交互工程的空间也成为了大家关注的一个问题,而在董彬看来,像GPT-4这样的基座模型越强,交互工程能够释放出来的威力也会越大。他认为不断变强的基座模型并不会压缩交互工程的空间,反而是一个“水涨船高”的事情。
我们对自动化和智能化的需求是没有止境的,所以我认为交互工程会有持续的发展空间。
因材施教是一个古老的难题
与交互工程的使用体验超出了周珍楠老师的预期。
当你问大型语言模型一些相对深刻的问题时,有时你会得到一个荒谬或者无用的回答,但有时候你可能会得到一个很有启发性的回答。在我个人的体验中,这种启发性可能会超越我在现实中找到一个“对”的人,并与之进行深入交流之后的收获。
教育一个最难的任务就是怎么做到真正意义上的因材施教,为每个学生定制一个又耐心又懂你,而且知识渊博的教学助手。而这种互动中的意外收获,也是董彬开发BB的初衷,“大语言模型也许可以很大程度上提升我们教育的质量。”因此,让不会用大模型的学生都能不费力地学会与大语言模型互动也就成为了董彬想要实现的目标。
“在大语言模型出来之后,学会提问的重要性就被放大了。”在周珍楠看来,提问者向大语言模型提供的信息量会影响他获取信息的质量。一方面,提问者需要对自己的问题有一定的了解,才能有效地让大型语言模型帮他解决问题。“确实存在一种极端的情况:一个问题的答案明明摆在我们面前,但我们就是无法理解。比如一个艰深的数学证明。”另一方面,即使我们有了充分的预备知识,我们仍然可能不是一个好的提问者。因为我们也许不知道如何针对具体的问题,去筛选和组织相关的信息和组织一个完整的提问。而与大型语言模型的多轮对话,可以在一定程度上弥补我们在逻辑和语言组织能力上的短板。
刘梓豪负责BB项目早期的后端设计,他尝试利用OpenAI开发的GPT-4的API接口,让BB实现在辅助教学方面的应用。“大家会发现BB本身类似于一个GPT-4加上数据库嵌入(embedding)的集成化系统。”这个系统(即BB)是希望语言模型能够围绕一个特定的数据库(比如某个课程的参考教材)来更加准确地回答用户的问题,减少所谓的幻觉(hallucination)。同时,我们也希望通过交互工程,能让BB更加符合特定课程和授课老师的风格偏好。对于如何引入相关领域的知识,我们使用的是向量知识库技术,将文本数据和交谈内容用预先训练好的深度学习模型映射到向量空间中,以便语言模型在回答问题时候能够更高效地进行基于数据库检索的回答生成。我们利用这种技术,嵌入了很多(北大)数学学院的教材。
如何实现因材施教是一个古老的难题
图片由董彬老师用OpenAI的DALL-E创作
AI助教会走向何处?
为了让这位AI助教在交互工程的带领下更好地提供给学生足够自由的空间,刘梓豪将课程资料设置到后台系统里,形成开源化数据,基于这些资料的学习,学生能够实现对一门课的基本认识。“有些课可能需要读的论文很多,或者说需要参考的资料数据集非常多,就可以把这种资料的上传开放,从而为学生自己建立知识库提供便利,学生只需要把自己的资料做好,把知识数据集调好,就可以通过这个插件直接把那些数据拷贝过来,然后去整合这个系统,使它有更好的应用。”
2023年10月,刘梓豪与董彬老师曾经的学生、现在哈佛大学做博士后研究的金鹏飞一起测试了图像处理课程的问题,“它回答的水平比大部分学生的水平都要高很多,尤其它能够更好地抓住某一个需要回答的重点,并且把框架搭得清清楚楚。”对于偏向于概念层面上理解的课程,目前BB助教已经可以提供很好的助教讲解作用。
“BB在计算方面的能力还很差,目前也不具备读图的功能” 。刘梓豪用BB计算微积分习题,但是表现并不尽如人意。BB在数学解题能力上的缺陷主要源于GPT-4在数学推理能力上的欠缺。因此,对于一些低年级的必修课,或者需要大量数学推理的课程,BB助教的用处就少很多。
为了根本性地解决这个问题,我们必须打造一个对数学有深刻理解的基座模型:这个模型不仅要能够综合掌握数学各个领域的知识,还要能够进行严密的数学推理。这同样是实现“AI for Mathematics”的关键目标之一。
展望未来,董彬和他的团队对BB的成长抱有很高的期望。他们正在探索如何让BB更具启发式,以更好地激发用户兴趣并培养他们的批判性思维。此外,团队还致力于优化BB的记忆功能,使其能够记住每位用户的习惯和偏好,进而提供更加个性化的助教服务。
数学中心办公院落
董彬老师小组在一起讨论问题
(左起)唐艺铭、刘梓豪、董彬老师、周珍楠老师、沈城烽、罗逸凡
董彬,北京大学博雅特聘教授,ICM45分钟报告人,新基石研究员。主要研究领域为科学计算、机器学习、计算成像。
周珍楠,北京国际数学研究中心助理教授。主要研究领域为微分方程的应用分析,微分方程数值解,应用随机分析,随机模拟等。
罗逸凡,北京大学数学科学学院2022级计算系直博生。主要研究方向为提示词工程和神经网络的可解释性。
沈城烽,北京大学数学科学学院2022级计算系直博生。主要研究方向为平均场博弈论及其在经济学中的应用。
唐艺铭,北京大学数学科学学院2020级本科生。主要研究方向是提示词工程和生物启发人工智能。
刘梓豪,北京大学数学科学学院2021级本科生。主要研究方向是大语言模型推理的优化理论。
来源 | 北京大学融媒体中心、北京国际数学研究中心
采写|罗逸凡
编辑丨孙小婕
图片丨北京国际数学研究中心
排版 | 杜金莹
责编丨戴璐瑶
<<左右滑动查看栏目>>